Cuándo y por qué funciona la exploración aleatoria en bandidos lineales
Exploración aleatoria (Thompson sampling) logra arrepentimiento óptimo en bandidos lineales con espacios convexos. ¡Un avance clave!
Exploración aleatoria (Thompson sampling) logra arrepentimiento óptimo en bandidos lineales con espacios convexos. ¡Un avance clave!
Descubre: Primer algoritmo de aprendizaje online con regret de intervalo adaptativo a la variación del gradiente. Garantías óptimas y ajuste automático.